Расчет размера и ошибки выборки
Размер выборки – это количество элементов, которые необходимо отобрать из генеральной совокупности для проведения выборочного исследования.
Определение размера выборки для вероятностного метода отбора представляет собой сложный процесс, включающий ряд этапов: 1) оценка факторов, влияющих на объем выборки; 2) выбор метода расчета размера выборки; 3) расчет размера выборки; 4) оценка стандартного отклонения среднего в выборочной совокупности; 5) расчет предельной ошибки выборки; 6) оценка среднего значения признака в генеральной совокупности (см. рис. 4.8).
В случае применения детерминированного метода отбора используются только приблизительные методы расчета размера выборки и оценить объективно точность результатов исследования не представляется возможным.
1. Оценка факторов, влияющих на размер выборки. К наиболее важным факторам, определяющим объем выборки, относятся следующие: важность принимаемого решения, характер исследования, бюджет исследования, стоимость сбора информации, число групп и подгрупп в генеральной совокупности, коэффициенты охвата и завершенности, размер генеральной совокупности и требуемая точность исследования (см. рис. 4.9). На размер ошибки выборки и, соответственно, точность результатов исследования влияют применяемая процедура отбора и степень вариации признака в совокупности.
Как правило, для принятия важных решений необходима детальная, максимально точная информация. Ее получение предусматривает создание больших выборок, но при увеличении объема выборки возрастает и стоимость каждой дополнительной единицы информации.
На величину объема выборки влияет также характер исследования. В поисковых исследованиях, изучающих качественные характеристики, объем выборки, как правило, невелик. Для исследований, предусматривающих статистическое заключение, таких как дескриптивные, необходим больший объем выборки. Кроме того, большие выборки нужны, когда информация собирается с учетом большого количества переменных. Большой объем выборки позволяет снизить общий эффект от ошибок выборки по всем переменным.
Принимая решения об объеме выборки, нужно учитывать фактор ограниченности ресурсов или располагаемый бюджет исследования. В любом исследовательском проекте существуют временные и финансовые ограничения. При жестких бюджетных ограничениях исследователь будет стоять перед выбором: использовать более дешевые методы сбора информации или ограничить размер выборки, допуская снижение точности результатов.
Рисунок 4.8. Этапы расчета необходимого размера выборки и оценки значения признака в генеральной совокупности
Рисунок 4.9. Факторы, учитываемые при определении размера выборки и взаимосвязи между ними
Чем больше размер выборки (чем он ближе к размерам генеральной совокупности в целом), тем надежнее и достовернее полученные данные, однако стоимость сбора информации (включающая в себя расходы на размножение инструментария, оплату труда интервьюеров, супервайзеров и операторов компьютерного набора данных) при этом значительно возрастает;
При проведении углубленного анализа данных с использованием разнообразных методов многомерного статистического анализа необходим большой объем выборки. Это же касается данных, которые анализируются с особой точностью. Таким образом, для анализа данных на уровне группы или подгруппы потребуется больший объем выборки, чем для анализа общей или генеральной совокупности.
К примеру, мы хотим исследовать потребительское поведение населения города. Перед нами – структура генеральной совокупности, которая представляет распределение в целом населения города и по трем квотным признакам: район города, пол, возраст. Совершенно очевидно, что если в исследовании ставится задача изучить мнения населения города в целом - это одна ситуация; если в том числе и по возрастным группам – это другая (здесь мы имеем 3 группы); если необходимо выявить распределения мнений по возрастным и половым группам - это третья ситуация (здесь мы имеем уже шесть групп); наконец, если в исследовании нас интересует распределение информации по возрастным, половым группам и районам города (к примеру, мы хотим определить, как к покупкам того или иного товара относятся молодые женщины, проживающие во Фрунзенском районе г. Минска), то здесь мы имеем дело уже с четвертой ситуацией (54 группы). Для получения репрезентативной информации в последним случае необходимо обеспечить представительство в минимальной из этих пятидесяти четырех групп 25-30 чел. Следовательно, минимальный объем выборочной совокупности здесь будет находиться в пределах 1600 чел.
Статистически определенный объем выборки представляет собой конечный, или чистый объем выборки, который необходимо получить, чтобы обеспечить расчет параметров с желательной степенью точности и заданным уровнем достоверности. При проведении опросов он выражается в количестве завершенных интервью. Для получения конечного объема выборки необходимо связаться с большим количеством потенциальных респондентов. Другими словами, начальный объем выборки должен намного превышать конечный, поскольку коэффициенты охвата и завершенности обычно составляют меньше 100%.
Коэффициентом охвата называется степень наличия или процент людей, подходящих для участия в исследовании. Коэффициент охвата определяет, какое количество контактов с людьми необходимо осуществить, чтобы в итоге получить объем выборки, соответствующий заданным критериям.
Предположим, что для исследования характеристик моющих средств необходимо создать выборку из женщин – глав семьи в возрасте от 25 до 55 лет. Приблизительно 75% женщин в возрасте от 20 до 60 лет, к которым можно обратиться, – это женщины – главы семьи в возрасте от 25 до 55 лет. Это означает, что, в среднем, необходимо обратиться к 1,33 женщин, чтобы получить одного подходящего респондента. Дополнительные критерии для отбора респондентов (например, каким образом использовался продукт) увеличивают необходимое количество контактов. Предположим, что дополнительным критерием является использование женщиной моющего средства для пола в течение последних двух месяцев. Предполагается, что 60% женщин, к которым обратятся исследователи, будут соответствовать этому критерию. Тогда коэффициент охвата составит 0,75 х 0,60 = 0,45. Таким образом, конечный объем выборки следует увеличить на 2,22 (1/0,45).
Точно так же при определении объема выборки необходимо учитывать ожидаемые отказы людей, соответствующих критериям исследования. Коэффициент завершенности указывает на процент респондентов, соответствующих критериям отбора, которые полностью прошли интервью. Например, если исследователь предполагает, что коэффициент завершенности интервью составит 80% от числа подходящих респондентов, необходимое количество контактов следует умножить на коэффициент 1,25. Применение коэффициентов охвата и завершенности означает, что число контактов с потенциальными респондентами, т.е. начальный объем выборки, должно быть в 2,22 х 1,25 (или 2,77) раз больше необходимого объема выборки.
Заранее заданная точность результатов исследования или допустимая ошибка выборки позволяют рассчитать необходимый размер выборочной совокупности, используя статистические методы, которые будут рассмотрены далее.
Ошибкой выборочного исследования называется любая ошибка, возникающая в результате опроса или наблюдения и являющаяся следствием использования выборки, а не всей генеральной совокупности. Ошибки выборочного исследования обусловлены процедурой формирования выборки и объемом выборки. Крупные выборки порождают меньшую ошибку выборочного исследования, чем малые.
Чтобы извлечь выборку, как уже отмечалось в предыдущем параграфе, сначала необходимо определит: основу выборки, представляющую собой сводный список все членов генеральной совокупности. Как известно, списки не всегда полно представляют генеральную совокупность, поскольку в ней постоянно происходят изменения: одни члены появляются, другие – уходят. Кроме того, списки не застрахованы от ошибок и опечаток. Таким образом, ошибка основы выборки выражается в неправильном описании всей генеральной совокупности. Независимо от способа формирования выборки, исследователь должен учитывать ошибку основы. Иногда в распоряжении исследователя оказывается основа, лишь приблизительно описывающая всю генеральную совокупность, однако, если альтернативы нет, приходится использовать и такие списки. Исследователь должен тщательно выбирать основу выборки, стремясь минимизировать ошибки. Кроме того, исследователь должен предупредить клиента о том, что используемая основа выборки может содержать ошибки.
Далее будет идти речь только о случайных ошибках выборочного исследования, которые не связанны с основой выборки и могут быть оценены статистически. Иначе говоря, будем предполагать, что основа выборки является достаточно качественной и обеспечивает низкий уровень ошибок, так что мы можем извлечь из нее репрезентативную выборку.
Ошибка выборки зависит не только от ее величины, но и от степени различий между отдельными единицами внутри данной генеральной совокупности. Например, если нужно узнать, средний размер потребления пива молодежью г. Минска в возрасте 18-25 лет, то обнаружится, что внутри имеющейся генеральной совокупности нормы потребления у различных людей существенно различны (гетерогенная генеральная совокупность). Если же необходимо узнать размер потребления хлеба в той же генеральной совокупности, то он будет различаться значительно меньше (гомогенная генеральная совокупность). Чем больше различия (гетерогенность) внутри генеральной совокупности, тем больше возможная ошибка выборки.
Некоторые методы выборочного исследования минимизируют ошибку выборки, другие – никак на нее не влияют. Например, использование стратифицированного отбора может дать выигрыш в точности при оценивании характеристик всей совокупности. Часто неоднородную совокупность удается расслоить на подсовокупности (страты), каждая из которых внутренне однородна. Если каждая страта однородна в том смысле, что результаты измерений в ней мало изменяются от единицы к единице, то можно получить точную оценку среднего значения для любой страты по небольшой выборке в этой страте. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.
2. Выбор метода расчета размера выборки. Если специалист из опыта знает, какой размер выборки следует использовать, или же существуют различные ограничения (например, связанные с бюджетом), используют приблизительные методы расчета размера выборки, к которым относятся следующие:
- произвольный метод расчета. В этом случае объем выборки определяется на уровне 5-10 % от генеральной совокупности.
- по эмпирическим правилам. Рекомендуется выбирать размер выборки таким образом, чтобы при ее разделении на группы в каждой группе было не меньше 100 элементов. Кроме сопоставления основных групп анализ часто может потребовать использования подгрупп. Размеры таких подгрупп должны составлять от 20 до 50 человек. Это основано на том, что для подгрупп требуется меньшая точность.
Если одна из групп или подгрупп составляет сравнительно небольшой процент совокупности, то будет разумно использовать непропорциональную выборку. Допустим, что только 10% совокупности смотрит образовательные телепередачи, и мнения представителей этой группы требуется сопоставить с мнениями других членов совокупности. Если используются телефонные интервью, контакты с жителями могут устанавливаться случайно до тех пор, пока не будут набраны 100 человек, которые не смотрят образовательные телепередачи. Далее опрос продолжается, однако уже опрашиваются лишь те респонденты, кто образовательные телепередачи смотрит. В результате будет получена выборка из 200 человек, половина из которых смотрят образовательные телепередачи.
- традиционный метод расчета связан с проведением периодических ежегодных исследований, охватывающих, например, 500, 1000 или 1500 респондентов.
- на основе опыта сопоставимых исследований. Таблица 4.7 дает представление об объемах выборок, используемых в различных маркетинговых исследованиях. Эти величины установлены опытным путем и могут использоваться в качестве ориентировочных данных, особенно при детерминированных методах формирования выборки.
- затратный метод основан на размере расходов, которые допустимо затратить на проведение исследования.
Статистический метод определения объема выборки основан на традиционном статистическом заключении. В соответствии с этим методом заранее определяется уровень (степень) точности.
Рассмотрение данного метода начнем с краткой характеристики базовых понятий математической статистики.
Наиболее важным понятием, позволяющим делать заключения о свойствах генеральной совокупности на основе выборочных методов является кривая нормального распределения.
Таблица 4.7. Объемы выборок, используемых в маркетинговых исследованиях
Вид исследования Минимальный объем Обычный диапазон
Исследование, цель которого – определить проблему (например, изучение потенциала рынка) 500 1000-2500
Исследование, цель которого – решить проблему (например, определить цену) 200 300-500
Тестирование товара 200 300-500
Пробный маркетинг 200 300-500
Теле- радио- и печатная реклама (в расчете на одно рекламное объявление, эффективность которого исследуется) 150 200-300
Аудит на пробном рынке 10 магазинов 10-20 магазинов
Фокус-группы 2 группы 10-15 групп
Кривая нормального распределения – это теоретическая модель, представляющая собой абсолютно симметричный и гладкий вид полигона частот. Она имеет форму колокола и одну вершину, а ее концы уходят в бесконечность в обоих направлениях. Важнейшим свойством, которым обладает кривая нормального распределения, является то, что расстояние по абсциссе (горизонтальная ось) распределения, измеренное в единицах стандартного отклонения от среднего арифметического распределения, всегда дает одинаковую общую площадь под кривой: между ±1 стандартным отклонением находится 68,3% площади; между ±2 стандартными отклонениями – 95,4% площади; между ±3 стандартными отклонениями – 99,7% площади (см. рис. 4.10).
Рисунок 4.10. Области под теоретической кривой нормального распределения
C понятием кривой нормального распределения связана центральная предельная теорема, которая гласит: «Если из генеральной совокупности, имеющей любое распределение со средним ? и стандартным отклонением ?, многократно извлекать случайные выборки объема n, то при большом n распределение всех возможных выборочных средних будет стремиться к нормальному распределению со средним ? и стандартным отклонением ? / ».
Таким образом, центральная предельная теорема позволяет распространять данные, полученные в результате выборочного исследования на всю генеральную совокупность с определенной степенью допущения при условии достаточно большого объема выборки.
Конечно, остается вопрос о том, что же такое большой объем выборки. Полезное эмпирическое правило гласит: если объем выборки (n) равен 100 или более, то применима центральная предельная теорема и вы можете принять допущение о нормальности распределения всех возможных выборочных средних. Если же n меньше 100, то вы должны иметь веские доказательства нормальности распределения генеральной совокупности, и только после этого вы можете полагать, что распределение, которому подчиняются выборочные статистики, является нормальным. Следовательно, нормальность распределения выборочных статистик гарантируется путем использования довольно больших выборок.
3. Выбор требуемой степени точности и достоверности результатов исследования. При проведении любого выборочного опроса или наблюдения перед исследователем ставится задача оценить, каково истинное значение во всей генеральной совокупности либо среднего значения абсолютного признака (доход потребителей, размер потребления конкретного товара), либо доли единиц в совокупности, обладающих каким-либо признаком (доля постоянных потребителей конкретного товара; доля потребителей, удовлетворенных уровнем обслуживания). Точность выборки в первом случае будет представлена в виде абсолютной величины со знаком ± (например, ±100 тыс. руб.; ±1 кг), или в виде процента, во втором случае – только в виде процента с тем же знаком (например, ±1% или ±5%).
Интерпретация точности выборки подчиняется следующей логике: если объем выборки обеспечивает точность ±5%, то результаты опроса или наблюдения, полученные с помощью выборки, отличаются от результатов полной переписи не более чем на 5%.
Еще одним фактором, влияющим на объем выборки является заданная исследователем степень достоверности (надежности) оценки, то есть степень уверенности в том, что оценка близка к истинному значению.
Для выборки фиксированного объема степень точности и степень достоверности являются связанными величинами. На деле определение объема выборки предполагает достижение известного баланса между двумя этими принципами.
Зависимость точности выборки от ее объема для 95,4% и 99,7% уровня надежности представлена на рисунке 4.11. Объем выборок на графике колеблется от 50 до 2000. График демонстрирует, что при увеличении объема выборки ее ошибка уменьшается. Однако, как видим, зависимость ошибки выборки от ее объема не является прямолинейной. Иначе говоря, удвоение объема выборки, не приводит к существенному уменьшению ошибки.
Рисунок 4.11. Зависимость точности и достоверности от объема выборки
Если объем выборки превышает 500, ошибка выборки для 95,4% надежности падает ниже ±4% и продолжает очень медленно снижаться. С другой стороны, анализ графика в области малых выборок показывает, что относительно небольшое изменение объема выборки позволяет значительно повысить их точность. Например, если объем выборки равен 50, то ее уровень точности равен ±13,9%, а увеличение их объема до 250 позволяет уменьшить ошибку выборки до ±6,2%. Иными словами, точность выборки, объем которой равен 25 примерно вдвое выше, чем точность выборки, объем которой равен 50. Однако в области крупных выборок это правило не выполняется.
4. Определение t параметра, связанного с уровнем надежности. Определить значение t, связанное с уровнем надежности можно воспользовавшись таблицей 1 приложения. Как видно по данным таблицы, при объеме выборки больше 100 для 95,4% надежности t?2, для 99,7% надежности t?3.
5. Поиск информации об уровне стандартного отклонения среднего значения признака в генеральной совокупности. Здесь возможны две различные ситуации: 1) стандартное отклонение среднего значения признака (?) в генеральной совокупности известно и 2) стандартное отклонение среднего значения признака в генеральной совокупности неизвестно.
В первом случае можно приступить к расчету объема выборки с помощью формулы стандартной ошибки выборки.
6. Определение объема выборки с помощью формулы стандартной ошибки с учетом корректировки на охват и завершенность.
Принято различать среднюю и предельную ошибки выборки. Предельная ошибка выборки определяется следующим образом:
где ? - предельная ошибка выборки;
t – параметр, связанный с уровнем надежности;
? – средняя ошибка выборки.
Формулы расчета средней ошибки выборки для средней и для доли с учетом способа отбора приведены в таблице 4.8.
Доверительные интервалы для генеральной средней можно установить на основе соотношений
Доверительные интервалы для генеральной доли устанавливаются на основе соотношений
Далее для вычисления объема выборки применяется формула вычисление объема выборки по заданному доверительному интервалу. Формулы расчета численности выборки для определения средней и доли с учетом способа отбора приведены в таблице 4.9.
Например, для обследования, преследующего цель выявить мнение потребителей о новом товаре, в регионе, насчитывающем 10 тыс. семей, необходимо провести анкетирование. Условно принимается, что в каждой квартире проживает одна семья и на нее будет выделена одна анкета. Предварительные исследования установили, что дисперсия среднего размера покупки составляет 24 тыс. руб.; ?2 = 2; предельная ошибка не должна превышать 0,5 тыс. руб. Отсюда численность выборки (п) составит:
Эта величина округляется до 400 семей (квартир), т.е. установлена 4%-я выборка. Однако практика показывает, что некоторая часть анкет не возвращается (предположим каждая пятая), поэтому увеличиваем число анкет до 500. Следовательно, необходимо включить в выборку каждую 20-ю квартиру (10000 : 500).
Все вышеприведенные формулы применимы для большой выборки. Кроме большой выборки используются так называемые малые выборки (n < 30), которые могут иметь место в случаях нецелесообразности использования больших выборок.
При расчете ошибок малой выборки необходимо учесть два момента:
1) формула средней ошибки имеет вид
2) при определении доверительных интервалов исследуемого показателя в генеральной совокупности или при нахождении вероятности допуска той или иной ошибки необходимо использовать таблицы вероятности Стьюдента. При этом вероятность определяется в зависимости от объема выборки и t (см. табл. прил. 1).
Таблица 4.8. Формулы определения стандартной ошибки выборки при различных способах отбора
Виды выборки
Способы отбора Повторная выборка Бесповторная выборка
Для средней
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - Для доли
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - -
В таблице используются следующие условные обозначения:
N – объем генеральной совокупности;
п – объем выборочной совокупности;
– средняя в генеральной совокупности;
– средняя в выборочной совокупности;
р – доля единиц в генеральной совокупности;
w – доля единиц в выборочной совокупности;
– генеральная дисперсия (заменяется на выборочную (S2) в случае, если она не известна);
– межсерийная дисперсия ;
r - число отобранных серий;
R- число серий в генеральной совокупности.
Таблица 4.9. Формулы определения численности выборки (n) при различных способах отбора
Виды выборки
Способы отбора Повторная выборка Бесповторная выборка
Для средней
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - Для доли
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - -
Например, для разработки бизнес-плана нового ресторана, который открывается в центральной части г. Минска необходимо узнать ожидаемый диапазон расходов одного посетителя в вечернее время. Удалось получить информацию о том, что стандартное отклонение расходов посетителей близкого по уровню и месту расположения ресторана составляет 30$. Существует возможность опросить около 26 посетителей ресторана. С какой достоверностью можно получить результат при заданной точности ±10$?
Рассчитаем среднюю ошибку выборки:
Тогда
Из таблицы приложения 1 для n=26 и t=1,66 можно определить, что при допуске ошибки ±10$ достоверность результатов составит менее 90%. Более точное значение достоверности для тех же параметров можно получить, например, при помощи функции СТЬЮДРАСП в Microsoft Excel - 89,2%.
С 95,4% надежностью будет обеспечена меньшая точность:
7. Отбор произвольной пробной выборки. В случае если стандартное отклонение среднего значения признака в генеральной совокупности неизвестно, необходимо сформировать произвольную пробную выборку.
8. Расчет стандартного отклонения средней в выборочной совокупности. На основе полученных данных рассчитывается стандартное отклонение признака в выборочной совокупности и, затем – необходимый размер выборки по приведенным выше формулам.
9. Расчет точности полученных результатов по формуле предельной ошибки выборки.По данным, собранным в ходе проведенного выборочного исследования, рассчитывается точность результатов. Если полученная точность не устраивает исследователя, может возникнуть необходимость увеличить размер выборки с учетом рассчитанного стандартного отклонения и коэффициентов отклика и завершенности.
Предположим, что в предыдущем примере не было возможности узнать стандартное отклонение расходов посетителей ресторана. По данным опроса 30 случайно отобранных респондентов получены следующие данные: 25$ – 2 чел.; 30$ – 3 чел.; 45$ – 7 чел.; 55$ – 6 чел.; 70$ – 3 чел.; 85$ – 5 чел.; 110$ – 2 чел.; 150$ – 2 чел.
Определяем среднее значение по формуле средней взвешенной:
Далее рассчитываем дисперсию (квадрат стандартного отклонения) расходов посетителей ресторана по выборочной совокупности.
Тогда точность полученных результатов с достоверностью 95,4%:
Для того, чтобы обеспечить заданную точность (±10$) рассчитываем необходимый размер выборки:
В целом, для принятия взвешенного решения по размеру выборки наряду со статистическими методами расчета следует применить рассмотренные ранее приблизительные методы и сравнить полученные результаты.
10. Оценка значения признака в генеральной совокупности. Основными методами распространения выборочного наблюдения на генеральную совокупность являются прямой пересчет и способ коэффициентов.
Прямой пересчет есть произведение среднего значения признака на объем генеральной совокупности. Однако большое число факторов не позволяет в полной мере использовать точечную оценку прямого пересчета при распространении результатов выборки на генеральную совокупность. На практике чаще пользуются интервальной оценкой, которая дает возможность учитывать размер предельной ошибки выборки, которая рассчитана для средней или для доли признака.
Оценка среднего по совокупности при использовании стратифицированной выборки является взвешенным средним средних значений по каждой страте выборки.
Например, производителю пива для оценки емкости внутреннего рынка в частности необходимо определить долю потребителей пива в общей численности населения региона в возрасте от 20 до 60 лет с точностью ±5%. Можно предположить, что данный показатель будет варьировать по полу и возрасту. В таблице 4.10 представлена информация о численности и структуре населения региона в возрасте от 20 до 60 лет.
Таблица 4.10. Численность населения региона в возрасте от 20 до 60 лет
Возрастные категории населения Всего, тыс. чел. В том числе
мужчины женщины
20-29 1576,0 802,0 774,0
30-39 1357,3 671,4 685,9
40-49 1559,6 751,9 807,7
50-59 1276,1 582,7 693,4
Всего 5769,0 2807,9 2961,1
Ранее проведенный опрос 200 респондентов в возрасте от 20 до 60 лет показал, что доля потребителей пива в общей численности населения региона составляет 83%. По имеющейся информации был рассчитан необходимый объем выборки:
С учетом необходимости обеспечить необходимый минимальный размер подгрупп округляем полученный результат до 300 человек и рассчитываем объем выборки для каждой из страт по полу и возрасту пропорционально соответствующей численности населения. Результаты расчета представлены в таблице 4.11.
Таблица 4.11. Структура населения региона в возрасте от 20 до 60 лет и численность выборки.
Возрастные категории населения В % к общей численности населения Численность выборки
всего мужчины женщины мужчины женщины
20-29 27,3 13,9 13,4 42 40
30-39 23,6 11,7 11,9 35 36
40-49 27,0 13,0 14,0 39 42
50-59 22,1 10,1 12,0 30 36
Всего 100,0 48,7 51,3 146 154
В результате опроса получены данные, представленные в таблице 4.12.
Таблица 4.12. Доля потребителей пива в общей численности населения в разрезе возрастных категорий по данным выборочного опроса.
Возрастные категории населения Доля потребителей пива
мужчины женщины
20-29 0,812 0,795
30-39 0,855 0,743
40-49 0,848 0,683
50-59 0,867 0,542
Определяем долю потребителей пива по формуле средней взвешенной:
Средняя ошибка выборки:
Предельная ошибка выборки для 95,4% надежности составит:
Таким образом, с 95,4% надежностью можно утверждать, что доля потребителей пива в общей численности населения региона в возрасте от 20 до 60 лет находится в интервале от 71,8% (76,6% - 4,8%) до 81,4% (76,6% + 4,8%).
Опрос обычно не ограничивается одним вопросом – иногда их сотни. Поэтому повторять подобный процесс для каждого вопроса смысла не имеет. Разумный подход – выбрать несколько репрезентативных вопросов и по ним определить размер. В этот набор следует включить наиболее критичные вопросы с максимальным уровнем ожидаемой дисперсии.
В таком случае может оказаться полезным подход к расчету объема выборки, основанный на сценарии максимально возможной вариации признака в совокупности. Как видно на рисунке 6, вариант, когда w= 0,5 (50%) является наиболее консервативным, поскольку он порождает максимальный размер ошибки и, соответственно, максимальный объем выборки. Следовательно, его следует выбирать, когда изменчивость не известна. Тогда формула размера выборки упрощается:
Для 95% уровня надежности и 5% уровня точности:
Рисунок 4.12. График
Использование номограмм для расчета объема выборки. Стремление упростить процедуру расчета объема выборки приводит к созданию таблиц, шкал или программ, которые ориентированы на обеспечение статистической надежности информации, но при этом не обременяют пользователя знаниями специальных формул из области статистики. Например, существует калькулятор выборки (www. shortway. to/few/calculator, htm).
Номограмма является графическим способом определения размера выборки. Номограмма включает три шкалы (рис. 7). На шкале слева устанавливается разметка показателя среднеквадратического отклонения или распределения доли признака. На правой шкале наносится разметка точности измерения в виде допустимой ошибки при заданной доверительной вероятности 95,4% или 99,7%. На средней шкале делается разметка, соответствующая требуемому объему выборки. На правой и левой шкалах делаются отметки на уровне желаемых значений показателей (доли признака и допустимой ошибки). Линейкой эти две отметки соединяются, на пересечении линейки со средней шкалой делается отметка, соответствующая тому объему выборки, который отвечает пожеланиям исследователя.
Рисунок 4.13. Номограмма для определения объема выборки (доверительная вероятность 95,4%)
Размер выборки – это количество элементов, которые необходимо отобрать из генеральной совокупности для проведения выборочного исследования.
Определение размера выборки для вероятностного метода отбора представляет собой сложный процесс, включающий ряд этапов: 1) оценка факторов, влияющих на объем выборки; 2) выбор метода расчета размера выборки; 3) расчет размера выборки; 4) оценка стандартного отклонения среднего в выборочной совокупности; 5) расчет предельной ошибки выборки; 6) оценка среднего значения признака в генеральной совокупности (см. рис. 4.8).
В случае применения детерминированного метода отбора используются только приблизительные методы расчета размера выборки и оценить объективно точность результатов исследования не представляется возможным.
1. Оценка факторов, влияющих на размер выборки. К наиболее важным факторам, определяющим объем выборки, относятся следующие: важность принимаемого решения, характер исследования, бюджет исследования, стоимость сбора информации, число групп и подгрупп в генеральной совокупности, коэффициенты охвата и завершенности, размер генеральной совокупности и требуемая точность исследования (см. рис. 4.9). На размер ошибки выборки и, соответственно, точность результатов исследования влияют применяемая процедура отбора и степень вариации признака в совокупности.
Как правило, для принятия важных решений необходима детальная, максимально точная информация. Ее получение предусматривает создание больших выборок, но при увеличении объема выборки возрастает и стоимость каждой дополнительной единицы информации.
На величину объема выборки влияет также характер исследования. В поисковых исследованиях, изучающих качественные характеристики, объем выборки, как правило, невелик. Для исследований, предусматривающих статистическое заключение, таких как дескриптивные, необходим больший объем выборки. Кроме того, большие выборки нужны, когда информация собирается с учетом большого количества переменных. Большой объем выборки позволяет снизить общий эффект от ошибок выборки по всем переменным.
Принимая решения об объеме выборки, нужно учитывать фактор ограниченности ресурсов или располагаемый бюджет исследования. В любом исследовательском проекте существуют временные и финансовые ограничения. При жестких бюджетных ограничениях исследователь будет стоять перед выбором: использовать более дешевые методы сбора информации или ограничить размер выборки, допуская снижение точности результатов.
Рисунок 4.8. Этапы расчета необходимого размера выборки и оценки значения признака в генеральной совокупности
Рисунок 4.9. Факторы, учитываемые при определении размера выборки и взаимосвязи между ними
Чем больше размер выборки (чем он ближе к размерам генеральной совокупности в целом), тем надежнее и достовернее полученные данные, однако стоимость сбора информации (включающая в себя расходы на размножение инструментария, оплату труда интервьюеров, супервайзеров и операторов компьютерного набора данных) при этом значительно возрастает;
При проведении углубленного анализа данных с использованием разнообразных методов многомерного статистического анализа необходим большой объем выборки. Это же касается данных, которые анализируются с особой точностью. Таким образом, для анализа данных на уровне группы или подгруппы потребуется больший объем выборки, чем для анализа общей или генеральной совокупности.
К примеру, мы хотим исследовать потребительское поведение населения города. Перед нами – структура генеральной совокупности, которая представляет распределение в целом населения города и по трем квотным признакам: район города, пол, возраст. Совершенно очевидно, что если в исследовании ставится задача изучить мнения населения города в целом - это одна ситуация; если в том числе и по возрастным группам – это другая (здесь мы имеем 3 группы); если необходимо выявить распределения мнений по возрастным и половым группам - это третья ситуация (здесь мы имеем уже шесть групп); наконец, если в исследовании нас интересует распределение информации по возрастным, половым группам и районам города (к примеру, мы хотим определить, как к покупкам того или иного товара относятся молодые женщины, проживающие во Фрунзенском районе г. Минска), то здесь мы имеем дело уже с четвертой ситуацией (54 группы). Для получения репрезентативной информации в последним случае необходимо обеспечить представительство в минимальной из этих пятидесяти четырех групп 25-30 чел. Следовательно, минимальный объем выборочной совокупности здесь будет находиться в пределах 1600 чел.
Статистически определенный объем выборки представляет собой конечный, или чистый объем выборки, который необходимо получить, чтобы обеспечить расчет параметров с желательной степенью точности и заданным уровнем достоверности. При проведении опросов он выражается в количестве завершенных интервью. Для получения конечного объема выборки необходимо связаться с большим количеством потенциальных респондентов. Другими словами, начальный объем выборки должен намного превышать конечный, поскольку коэффициенты охвата и завершенности обычно составляют меньше 100%.
Коэффициентом охвата называется степень наличия или процент людей, подходящих для участия в исследовании. Коэффициент охвата определяет, какое количество контактов с людьми необходимо осуществить, чтобы в итоге получить объем выборки, соответствующий заданным критериям.
Предположим, что для исследования характеристик моющих средств необходимо создать выборку из женщин – глав семьи в возрасте от 25 до 55 лет. Приблизительно 75% женщин в возрасте от 20 до 60 лет, к которым можно обратиться, – это женщины – главы семьи в возрасте от 25 до 55 лет. Это означает, что, в среднем, необходимо обратиться к 1,33 женщин, чтобы получить одного подходящего респондента. Дополнительные критерии для отбора респондентов (например, каким образом использовался продукт) увеличивают необходимое количество контактов. Предположим, что дополнительным критерием является использование женщиной моющего средства для пола в течение последних двух месяцев. Предполагается, что 60% женщин, к которым обратятся исследователи, будут соответствовать этому критерию. Тогда коэффициент охвата составит 0,75 х 0,60 = 0,45. Таким образом, конечный объем выборки следует увеличить на 2,22 (1/0,45).
Точно так же при определении объема выборки необходимо учитывать ожидаемые отказы людей, соответствующих критериям исследования. Коэффициент завершенности указывает на процент респондентов, соответствующих критериям отбора, которые полностью прошли интервью. Например, если исследователь предполагает, что коэффициент завершенности интервью составит 80% от числа подходящих респондентов, необходимое количество контактов следует умножить на коэффициент 1,25. Применение коэффициентов охвата и завершенности означает, что число контактов с потенциальными респондентами, т.е. начальный объем выборки, должно быть в 2,22 х 1,25 (или 2,77) раз больше необходимого объема выборки.
Заранее заданная точность результатов исследования или допустимая ошибка выборки позволяют рассчитать необходимый размер выборочной совокупности, используя статистические методы, которые будут рассмотрены далее.
Ошибкой выборочного исследования называется любая ошибка, возникающая в результате опроса или наблюдения и являющаяся следствием использования выборки, а не всей генеральной совокупности. Ошибки выборочного исследования обусловлены процедурой формирования выборки и объемом выборки. Крупные выборки порождают меньшую ошибку выборочного исследования, чем малые.
Чтобы извлечь выборку, как уже отмечалось в предыдущем параграфе, сначала необходимо определит: основу выборки, представляющую собой сводный список все членов генеральной совокупности. Как известно, списки не всегда полно представляют генеральную совокупность, поскольку в ней постоянно происходят изменения: одни члены появляются, другие – уходят. Кроме того, списки не застрахованы от ошибок и опечаток. Таким образом, ошибка основы выборки выражается в неправильном описании всей генеральной совокупности. Независимо от способа формирования выборки, исследователь должен учитывать ошибку основы. Иногда в распоряжении исследователя оказывается основа, лишь приблизительно описывающая всю генеральную совокупность, однако, если альтернативы нет, приходится использовать и такие списки. Исследователь должен тщательно выбирать основу выборки, стремясь минимизировать ошибки. Кроме того, исследователь должен предупредить клиента о том, что используемая основа выборки может содержать ошибки.
Далее будет идти речь только о случайных ошибках выборочного исследования, которые не связанны с основой выборки и могут быть оценены статистически. Иначе говоря, будем предполагать, что основа выборки является достаточно качественной и обеспечивает низкий уровень ошибок, так что мы можем извлечь из нее репрезентативную выборку.
Ошибка выборки зависит не только от ее величины, но и от степени различий между отдельными единицами внутри данной генеральной совокупности. Например, если нужно узнать, средний размер потребления пива молодежью г. Минска в возрасте 18-25 лет, то обнаружится, что внутри имеющейся генеральной совокупности нормы потребления у различных людей существенно различны (гетерогенная генеральная совокупность). Если же необходимо узнать размер потребления хлеба в той же генеральной совокупности, то он будет различаться значительно меньше (гомогенная генеральная совокупность). Чем больше различия (гетерогенность) внутри генеральной совокупности, тем больше возможная ошибка выборки.
Некоторые методы выборочного исследования минимизируют ошибку выборки, другие – никак на нее не влияют. Например, использование стратифицированного отбора может дать выигрыш в точности при оценивании характеристик всей совокупности. Часто неоднородную совокупность удается расслоить на подсовокупности (страты), каждая из которых внутренне однородна. Если каждая страта однородна в том смысле, что результаты измерений в ней мало изменяются от единицы к единице, то можно получить точную оценку среднего значения для любой страты по небольшой выборке в этой страте. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.
2. Выбор метода расчета размера выборки. Если специалист из опыта знает, какой размер выборки следует использовать, или же существуют различные ограничения (например, связанные с бюджетом), используют приблизительные методы расчета размера выборки, к которым относятся следующие:
- произвольный метод расчета. В этом случае объем выборки определяется на уровне 5-10 % от генеральной совокупности.
- по эмпирическим правилам. Рекомендуется выбирать размер выборки таким образом, чтобы при ее разделении на группы в каждой группе было не меньше 100 элементов. Кроме сопоставления основных групп анализ часто может потребовать использования подгрупп. Размеры таких подгрупп должны составлять от 20 до 50 человек. Это основано на том, что для подгрупп требуется меньшая точность.
Если одна из групп или подгрупп составляет сравнительно небольшой процент совокупности, то будет разумно использовать непропорциональную выборку. Допустим, что только 10% совокупности смотрит образовательные телепередачи, и мнения представителей этой группы требуется сопоставить с мнениями других членов совокупности. Если используются телефонные интервью, контакты с жителями могут устанавливаться случайно до тех пор, пока не будут набраны 100 человек, которые не смотрят образовательные телепередачи. Далее опрос продолжается, однако уже опрашиваются лишь те респонденты, кто образовательные телепередачи смотрит. В результате будет получена выборка из 200 человек, половина из которых смотрят образовательные телепередачи.
- традиционный метод расчета связан с проведением периодических ежегодных исследований, охватывающих, например, 500, 1000 или 1500 респондентов.
- на основе опыта сопоставимых исследований. Таблица 4.7 дает представление об объемах выборок, используемых в различных маркетинговых исследованиях. Эти величины установлены опытным путем и могут использоваться в качестве ориентировочных данных, особенно при детерминированных методах формирования выборки.
- затратный метод основан на размере расходов, которые допустимо затратить на проведение исследования.
Статистический метод определения объема выборки основан на традиционном статистическом заключении. В соответствии с этим методом заранее определяется уровень (степень) точности.
Рассмотрение данного метода начнем с краткой характеристики базовых понятий математической статистики.
Наиболее важным понятием, позволяющим делать заключения о свойствах генеральной совокупности на основе выборочных методов является кривая нормального распределения.
Таблица 4.7. Объемы выборок, используемых в маркетинговых исследованиях
Вид исследования Минимальный объем Обычный диапазон
Исследование, цель которого – определить проблему (например, изучение потенциала рынка) 500 1000-2500
Исследование, цель которого – решить проблему (например, определить цену) 200 300-500
Тестирование товара 200 300-500
Пробный маркетинг 200 300-500
Теле- радио- и печатная реклама (в расчете на одно рекламное объявление, эффективность которого исследуется) 150 200-300
Аудит на пробном рынке 10 магазинов 10-20 магазинов
Фокус-группы 2 группы 10-15 групп
Кривая нормального распределения – это теоретическая модель, представляющая собой абсолютно симметричный и гладкий вид полигона частот. Она имеет форму колокола и одну вершину, а ее концы уходят в бесконечность в обоих направлениях. Важнейшим свойством, которым обладает кривая нормального распределения, является то, что расстояние по абсциссе (горизонтальная ось) распределения, измеренное в единицах стандартного отклонения от среднего арифметического распределения, всегда дает одинаковую общую площадь под кривой: между ±1 стандартным отклонением находится 68,3% площади; между ±2 стандартными отклонениями – 95,4% площади; между ±3 стандартными отклонениями – 99,7% площади (см. рис. 4.10).
Рисунок 4.10. Области под теоретической кривой нормального распределения
C понятием кривой нормального распределения связана центральная предельная теорема, которая гласит: «Если из генеральной совокупности, имеющей любое распределение со средним ? и стандартным отклонением ?, многократно извлекать случайные выборки объема n, то при большом n распределение всех возможных выборочных средних будет стремиться к нормальному распределению со средним ? и стандартным отклонением ? / ».
Таким образом, центральная предельная теорема позволяет распространять данные, полученные в результате выборочного исследования на всю генеральную совокупность с определенной степенью допущения при условии достаточно большого объема выборки.
Конечно, остается вопрос о том, что же такое большой объем выборки. Полезное эмпирическое правило гласит: если объем выборки (n) равен 100 или более, то применима центральная предельная теорема и вы можете принять допущение о нормальности распределения всех возможных выборочных средних. Если же n меньше 100, то вы должны иметь веские доказательства нормальности распределения генеральной совокупности, и только после этого вы можете полагать, что распределение, которому подчиняются выборочные статистики, является нормальным. Следовательно, нормальность распределения выборочных статистик гарантируется путем использования довольно больших выборок.
3. Выбор требуемой степени точности и достоверности результатов исследования. При проведении любого выборочного опроса или наблюдения перед исследователем ставится задача оценить, каково истинное значение во всей генеральной совокупности либо среднего значения абсолютного признака (доход потребителей, размер потребления конкретного товара), либо доли единиц в совокупности, обладающих каким-либо признаком (доля постоянных потребителей конкретного товара; доля потребителей, удовлетворенных уровнем обслуживания). Точность выборки в первом случае будет представлена в виде абсолютной величины со знаком ± (например, ±100 тыс. руб.; ±1 кг), или в виде процента, во втором случае – только в виде процента с тем же знаком (например, ±1% или ±5%).
Интерпретация точности выборки подчиняется следующей логике: если объем выборки обеспечивает точность ±5%, то результаты опроса или наблюдения, полученные с помощью выборки, отличаются от результатов полной переписи не более чем на 5%.
Еще одним фактором, влияющим на объем выборки является заданная исследователем степень достоверности (надежности) оценки, то есть степень уверенности в том, что оценка близка к истинному значению.
Для выборки фиксированного объема степень точности и степень достоверности являются связанными величинами. На деле определение объема выборки предполагает достижение известного баланса между двумя этими принципами.
Зависимость точности выборки от ее объема для 95,4% и 99,7% уровня надежности представлена на рисунке 4.11. Объем выборок на графике колеблется от 50 до 2000. График демонстрирует, что при увеличении объема выборки ее ошибка уменьшается. Однако, как видим, зависимость ошибки выборки от ее объема не является прямолинейной. Иначе говоря, удвоение объема выборки, не приводит к существенному уменьшению ошибки.
Рисунок 4.11. Зависимость точности и достоверности от объема выборки
Если объем выборки превышает 500, ошибка выборки для 95,4% надежности падает ниже ±4% и продолжает очень медленно снижаться. С другой стороны, анализ графика в области малых выборок показывает, что относительно небольшое изменение объема выборки позволяет значительно повысить их точность. Например, если объем выборки равен 50, то ее уровень точности равен ±13,9%, а увеличение их объема до 250 позволяет уменьшить ошибку выборки до ±6,2%. Иными словами, точность выборки, объем которой равен 25 примерно вдвое выше, чем точность выборки, объем которой равен 50. Однако в области крупных выборок это правило не выполняется.
4. Определение t параметра, связанного с уровнем надежности. Определить значение t, связанное с уровнем надежности можно воспользовавшись таблицей 1 приложения. Как видно по данным таблицы, при объеме выборки больше 100 для 95,4% надежности t?2, для 99,7% надежности t?3.
5. Поиск информации об уровне стандартного отклонения среднего значения признака в генеральной совокупности. Здесь возможны две различные ситуации: 1) стандартное отклонение среднего значения признака (?) в генеральной совокупности известно и 2) стандартное отклонение среднего значения признака в генеральной совокупности неизвестно.
В первом случае можно приступить к расчету объема выборки с помощью формулы стандартной ошибки выборки.
6. Определение объема выборки с помощью формулы стандартной ошибки с учетом корректировки на охват и завершенность.
Принято различать среднюю и предельную ошибки выборки. Предельная ошибка выборки определяется следующим образом:
где ? - предельная ошибка выборки;
t – параметр, связанный с уровнем надежности;
? – средняя ошибка выборки.
Формулы расчета средней ошибки выборки для средней и для доли с учетом способа отбора приведены в таблице 4.8.
Доверительные интервалы для генеральной средней можно установить на основе соотношений
Доверительные интервалы для генеральной доли устанавливаются на основе соотношений
Далее для вычисления объема выборки применяется формула вычисление объема выборки по заданному доверительному интервалу. Формулы расчета численности выборки для определения средней и доли с учетом способа отбора приведены в таблице 4.9.
Например, для обследования, преследующего цель выявить мнение потребителей о новом товаре, в регионе, насчитывающем 10 тыс. семей, необходимо провести анкетирование. Условно принимается, что в каждой квартире проживает одна семья и на нее будет выделена одна анкета. Предварительные исследования установили, что дисперсия среднего размера покупки составляет 24 тыс. руб.; ?2 = 2; предельная ошибка не должна превышать 0,5 тыс. руб. Отсюда численность выборки (п) составит:
Эта величина округляется до 400 семей (квартир), т.е. установлена 4%-я выборка. Однако практика показывает, что некоторая часть анкет не возвращается (предположим каждая пятая), поэтому увеличиваем число анкет до 500. Следовательно, необходимо включить в выборку каждую 20-ю квартиру (10000 : 500).
Все вышеприведенные формулы применимы для большой выборки. Кроме большой выборки используются так называемые малые выборки (n < 30), которые могут иметь место в случаях нецелесообразности использования больших выборок.
При расчете ошибок малой выборки необходимо учесть два момента:
1) формула средней ошибки имеет вид
2) при определении доверительных интервалов исследуемого показателя в генеральной совокупности или при нахождении вероятности допуска той или иной ошибки необходимо использовать таблицы вероятности Стьюдента. При этом вероятность определяется в зависимости от объема выборки и t (см. табл. прил. 1).
Таблица 4.8. Формулы определения стандартной ошибки выборки при различных способах отбора
Виды выборки
Способы отбора Повторная выборка Бесповторная выборка
Для средней
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - Для доли
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - -
В таблице используются следующие условные обозначения:
N – объем генеральной совокупности;
п – объем выборочной совокупности;
– средняя в генеральной совокупности;
– средняя в выборочной совокупности;
р – доля единиц в генеральной совокупности;
w – доля единиц в выборочной совокупности;
– генеральная дисперсия (заменяется на выборочную (S2) в случае, если она не известна);
– межсерийная дисперсия ;
r - число отобранных серий;
R- число серий в генеральной совокупности.
Таблица 4.9. Формулы определения численности выборки (n) при различных способах отбора
Виды выборки
Способы отбора Повторная выборка Бесповторная выборка
Для средней
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - Для доли
Простая случайная выборка
Стратифицированная или типическая выборка
Кластерная, гнездовая или серийная выборка - -
Например, для разработки бизнес-плана нового ресторана, который открывается в центральной части г. Минска необходимо узнать ожидаемый диапазон расходов одного посетителя в вечернее время. Удалось получить информацию о том, что стандартное отклонение расходов посетителей близкого по уровню и месту расположения ресторана составляет 30$. Существует возможность опросить около 26 посетителей ресторана. С какой достоверностью можно получить результат при заданной точности ±10$?
Рассчитаем среднюю ошибку выборки:
Тогда
Из таблицы приложения 1 для n=26 и t=1,66 можно определить, что при допуске ошибки ±10$ достоверность результатов составит менее 90%. Более точное значение достоверности для тех же параметров можно получить, например, при помощи функции СТЬЮДРАСП в Microsoft Excel - 89,2%.
С 95,4% надежностью будет обеспечена меньшая точность:
7. Отбор произвольной пробной выборки. В случае если стандартное отклонение среднего значения признака в генеральной совокупности неизвестно, необходимо сформировать произвольную пробную выборку.
8. Расчет стандартного отклонения средней в выборочной совокупности. На основе полученных данных рассчитывается стандартное отклонение признака в выборочной совокупности и, затем – необходимый размер выборки по приведенным выше формулам.
9. Расчет точности полученных результатов по формуле предельной ошибки выборки.По данным, собранным в ходе проведенного выборочного исследования, рассчитывается точность результатов. Если полученная точность не устраивает исследователя, может возникнуть необходимость увеличить размер выборки с учетом рассчитанного стандартного отклонения и коэффициентов отклика и завершенности.
Предположим, что в предыдущем примере не было возможности узнать стандартное отклонение расходов посетителей ресторана. По данным опроса 30 случайно отобранных респондентов получены следующие данные: 25$ – 2 чел.; 30$ – 3 чел.; 45$ – 7 чел.; 55$ – 6 чел.; 70$ – 3 чел.; 85$ – 5 чел.; 110$ – 2 чел.; 150$ – 2 чел.
Определяем среднее значение по формуле средней взвешенной:
Далее рассчитываем дисперсию (квадрат стандартного отклонения) расходов посетителей ресторана по выборочной совокупности.
Тогда точность полученных результатов с достоверностью 95,4%:
Для того, чтобы обеспечить заданную точность (±10$) рассчитываем необходимый размер выборки:
В целом, для принятия взвешенного решения по размеру выборки наряду со статистическими методами расчета следует применить рассмотренные ранее приблизительные методы и сравнить полученные результаты.
10. Оценка значения признака в генеральной совокупности. Основными методами распространения выборочного наблюдения на генеральную совокупность являются прямой пересчет и способ коэффициентов.
Прямой пересчет есть произведение среднего значения признака на объем генеральной совокупности. Однако большое число факторов не позволяет в полной мере использовать точечную оценку прямого пересчета при распространении результатов выборки на генеральную совокупность. На практике чаще пользуются интервальной оценкой, которая дает возможность учитывать размер предельной ошибки выборки, которая рассчитана для средней или для доли признака.
Оценка среднего по совокупности при использовании стратифицированной выборки является взвешенным средним средних значений по каждой страте выборки.
Например, производителю пива для оценки емкости внутреннего рынка в частности необходимо определить долю потребителей пива в общей численности населения региона в возрасте от 20 до 60 лет с точностью ±5%. Можно предположить, что данный показатель будет варьировать по полу и возрасту. В таблице 4.10 представлена информация о численности и структуре населения региона в возрасте от 20 до 60 лет.
Таблица 4.10. Численность населения региона в возрасте от 20 до 60 лет
Возрастные категории населения Всего, тыс. чел. В том числе
мужчины женщины
20-29 1576,0 802,0 774,0
30-39 1357,3 671,4 685,9
40-49 1559,6 751,9 807,7
50-59 1276,1 582,7 693,4
Всего 5769,0 2807,9 2961,1
Ранее проведенный опрос 200 респондентов в возрасте от 20 до 60 лет показал, что доля потребителей пива в общей численности населения региона составляет 83%. По имеющейся информации был рассчитан необходимый объем выборки:
С учетом необходимости обеспечить необходимый минимальный размер подгрупп округляем полученный результат до 300 человек и рассчитываем объем выборки для каждой из страт по полу и возрасту пропорционально соответствующей численности населения. Результаты расчета представлены в таблице 4.11.
Таблица 4.11. Структура населения региона в возрасте от 20 до 60 лет и численность выборки.
Возрастные категории населения В % к общей численности населения Численность выборки
всего мужчины женщины мужчины женщины
20-29 27,3 13,9 13,4 42 40
30-39 23,6 11,7 11,9 35 36
40-49 27,0 13,0 14,0 39 42
50-59 22,1 10,1 12,0 30 36
Всего 100,0 48,7 51,3 146 154
В результате опроса получены данные, представленные в таблице 4.12.
Таблица 4.12. Доля потребителей пива в общей численности населения в разрезе возрастных категорий по данным выборочного опроса.
Возрастные категории населения Доля потребителей пива
мужчины женщины
20-29 0,812 0,795
30-39 0,855 0,743
40-49 0,848 0,683
50-59 0,867 0,542
Определяем долю потребителей пива по формуле средней взвешенной:
Средняя ошибка выборки:
Предельная ошибка выборки для 95,4% надежности составит:
Таким образом, с 95,4% надежностью можно утверждать, что доля потребителей пива в общей численности населения региона в возрасте от 20 до 60 лет находится в интервале от 71,8% (76,6% - 4,8%) до 81,4% (76,6% + 4,8%).
Опрос обычно не ограничивается одним вопросом – иногда их сотни. Поэтому повторять подобный процесс для каждого вопроса смысла не имеет. Разумный подход – выбрать несколько репрезентативных вопросов и по ним определить размер. В этот набор следует включить наиболее критичные вопросы с максимальным уровнем ожидаемой дисперсии.
В таком случае может оказаться полезным подход к расчету объема выборки, основанный на сценарии максимально возможной вариации признака в совокупности. Как видно на рисунке 6, вариант, когда w= 0,5 (50%) является наиболее консервативным, поскольку он порождает максимальный размер ошибки и, соответственно, максимальный объем выборки. Следовательно, его следует выбирать, когда изменчивость не известна. Тогда формула размера выборки упрощается:
Для 95% уровня надежности и 5% уровня точности:
Рисунок 4.12. График
Использование номограмм для расчета объема выборки. Стремление упростить процедуру расчета объема выборки приводит к созданию таблиц, шкал или программ, которые ориентированы на обеспечение статистической надежности информации, но при этом не обременяют пользователя знаниями специальных формул из области статистики. Например, существует калькулятор выборки (www. shortway. to/few/calculator, htm).
Номограмма является графическим способом определения размера выборки. Номограмма включает три шкалы (рис. 7). На шкале слева устанавливается разметка показателя среднеквадратического отклонения или распределения доли признака. На правой шкале наносится разметка точности измерения в виде допустимой ошибки при заданной доверительной вероятности 95,4% или 99,7%. На средней шкале делается разметка, соответствующая требуемому объему выборки. На правой и левой шкалах делаются отметки на уровне желаемых значений показателей (доли признака и допустимой ошибки). Линейкой эти две отметки соединяются, на пересечении линейки со средней шкалой делается отметка, соответствующая тому объему выборки, который отвечает пожеланиям исследователя.
Размер выборки – это количество элементов, которые необходимо отобрать из генеральной совокупности для проведения выборочного исследования.
Определение размера выборки для вероятностного метода отбора представляет собой сложный процесс, включающий ряд этапов: 1) оценка факторов, влияющих на объем выборки; 2) выбор метода расчета размера выборки; 3) расчет размера выборки; 4) оценка стандартного отклонения среднего в выборочной совокупности; 5) расчет предельной ошибки выборки; 6) оценка среднего значения признака в генеральной совокупности (см. рис. 4.8).
В случае применения детерминированного метода отбора используются только приблизительные методы расчета размера выборки и оценить объективно точность результатов исследования не представляется возможным.
1. Оценка факторов, влияющих на размер выборки. К наиболее важным факторам, определяющим объем выборки, относятся следующие: важность принимаемого решения, характер исследования, бюджет исследования, стоимость сбора информации, число групп и подгрупп в генеральной совокупности, коэффициенты охвата и завершенности, размер генеральной совокупности и требуемая точность исследования (см. рис. 4.9). На размер ошибки выборки и, соответственно, точность результатов исследования влияют применяемая процедура отбора и степень вариации признака в совокупности.
Как правило, для принятия важных решений необходима детальная, максимально точная информация. Ее получение предусматривает создание больших выборок, но при увеличении объема выборки возрастает и стоимость каждой дополнительной единицы информации.
На величину объема выборки влияет также характер исследования. В поисковых исследованиях, изучающих качественные характеристики, объем выборки, как правило, невелик. Для исследований, предусматривающих статистическое заключение, таких как дескриптивные, необходим больший объем выборки. Кроме того, большие выборки нужны, когда информация собирается с учетом большого количества переменных. Большой объем выборки позволяет снизить общий эффект от ошибок выборки по всем переменным.
Принимая решения об объеме выборки, нужно учитывать фактор ограниченности ресурсов или располагаемый бюджет исследования. В любом исследовательском проекте существуют временные и финансовые ограничения. При жестких бюджетных ограничениях исследователь будет стоять перед выбором: использовать более дешевые методы сбора информации или ограничить размер выборки, допуская снижение точности результатов.
Рисунок 4.8. Этапы расчета необходимого размера выборки и оценки значения признака в генеральной совокупности
Рисунок 4.9. Факторы, учитываемые при определении размера выборки и взаимосвязи между ними
Чем больше размер выборки (чем он ближе к размерам генеральной совокупности в целом), тем надежнее и достовернее полученные данные, однако стоимость сбора информации (включающая в себя расходы на размножение инструментария, оплату труда интервьюеров, супервайзеров и операторов компьютерного набора данных) при этом значительно возрастает;
При проведении углубленного анализа данных с использованием разнообразных методов многомерного статистического анализа необходим большой объем выборки. Это же касается данных, которые анализируются с особой точностью. Таким образом, для анализа данных на уровне группы или подгруппы потребуется больший объем выборки, чем для анализа общей или генеральной совокупности.
К примеру, мы хотим исследовать потребительское поведение населения города. Перед нами – структура генеральной совокупности, которая представляет распределение в целом населения города и по трем квотным признакам: район города, пол, возраст. Совершенно очевидно, что если в исследовании ставится задача изучить мнения населения города в целом - это одна ситуация; если в том числе и по возрастным группам – это другая (здесь мы имеем 3 группы); если необходимо выявить распределения мнений по возрастным и половым группам - это третья ситуация (здесь мы имеем уже шесть групп); наконец, если в исследовании нас интересует распределение информации по возрастным, половым группам и районам города (к примеру, мы хотим определить, как к покупкам того или иного товара относятся молодые женщины, проживающие во Фрунзенском районе г. Минска), то здесь мы имеем дело уже с четвертой ситуацией (54 группы). Для получения репрезентативной информации в последним случае необходимо обеспечить представительство в минимальной из этих пятидесяти четырех групп 25-30 чел. Следовательно, минимальный объем выборочной совокупности здесь будет находиться в пределах 1600 чел.
Статистически определенный объем выборки представляет собой конечный, или чистый объем выборки, который необходимо получить, чтобы обеспечить расчет параметров с желательной степенью точности и заданным уровнем достоверности. При проведении опросов он выражается в количестве завершенных интервью. Для получения конечного объема выборки необходимо связаться с большим количеством потенциальных респондентов. Другими словами, начальный объем выборки должен намного превышать конечный, поскольку коэффициенты охвата и завершенности обычно составляют меньше 100%.
Коэффициентом охвата называется степень наличия или процент людей, подходящих для участия в исследовании. Коэффициент охвата определяет, какое количество контактов с людьми необход
Похожие рефераты: